<html>
	<head>
	   <title>Peter Kolb Homepage: Download</title>
   <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
	   <meta name="keywords" content="Peter Kolb,
	Computerlinguistik, Wortliste, Wortlisten, Download,
	Städteliste, Ortsnamen, Vornamen, Straßennamen, Stoppwortliste, Stopwortliste">
	<meta name="description" content="Download Wortlisten für 
	die Computerlinguistik">
	<meta name="author" content="Peter Kolb">
   <meta name="robots" content="index,follow">
   <link rel="shortcut icon" href="./pk.ico">
</head>

<body text="#000000" bgcolor="#FFFFFF" background="new-pix/wallpaper.gif" link="blue" vlink="#fe6602" alink="#333333">

<br>

<table border=0 cellspacing=0 cellpadding=0 width=100%>
<tr>
   <td bgcolor="#fe6602" width=20%><img src="new-pix/main-logo.jpg">
   </td>
   <td bgcolor="#fe6602" width=80%><center><img
   src="new-pix/download-logo.jpg" alt="Download"></center>
   </td>
</tr>
<tr>
   <td valign="top" align="center">
      <table cellPadding=12 border=0 width=100%>
         <tr>
         <td></td>
	 <TD><A href="index.html"><IMG alt="Hauptseite" src="haus_3d.gif" border=0><br></a>
	 </TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td width=30%>
	 </td>
	 <TD width=50%><a href="texte.html"><IMG alt="Publikationen" src="buch_3d.jpg" border=0></a><br>
	 </TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td></td>
	 <TD><a href="lehre.html"><IMG alt="Lehre" src="lehre.gif" border=0><br></a>
	 </TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td></td>
	 <TD><a href="online-demos.html"><IMG alt="Online-Demos" src="ritzel_shadow.gif" border=0><br></a>
	 </TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td><img src="new-pix/pfeil.jpg" border=0></td>
	 <TD><IMG alt="Download" src="software.gif" border=0><br>
	 </TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td></td>
	 <TD><A href="smt.html"><IMG alt="Linksammlung Statistische Maschinelle 
	   Übersetzung" src="smt_orange_klein.gif"
	   border=0><br></A></TD>
         <td width=20%></td>
      </tr>
      <tr>
         <td></td>
	 <TD><A href="links.html"><IMG alt="Links" src="link_3d_grau3.gif" border=0><br></A>
	 </TD>
         <td width=20%></td>
      </tr>
     </table>
   </td>

   <td>

   <table border=0 cellpadding=0 cellspacing=0>
   <tr>
      <td width=80%>
      <br><br>
      <ul>
      <li> <b>Software</b>
          <ul>
	    <li><a href="UIMA-chunker.html">UIMA-Wrapper</a> f&uuml;r den deutschen Chunker von Helmut Schmid und Sabine Schulte im Walde.</li>
	    <li><a href="http://www.linguatools.de/disco/disco.html">DISCO</a>: semantische Worträume in 8 Sprachen und Java-API zur Bestimmung der semantischen Ähnlichkeit zwischen Wörtern</li>
	  <li> Graphen-Visualisierungsprogramm <a href="gravis.html">GRAVIS</a>.
	    <li> Perl-Skripte zur Bestimmung der Termrelevanz nach dem tf-idf-Maß:
	      <ul>
		<li> <a href="df.pl">df.pl</a>: Gibt eine Liste mit den Dokumenthäufigkeiten aller Terme in den Dateien im Eingabeverzeichnis aus.  
		<li> <a href="tfidf.pl">tfidf.pl</a>: Berechnet die Relevanz der Terme in einer Eingabedatei (anhand der vom obigen Skript <i>df.pl</i> ausgegebenen Dokumentfrequenzliste) und gibt eine nach Relevanz sortierte Termliste aus.
	      </ul>
	      Mehr Informationen über Termrelevanz stehen auf dieser <a href="http://www.ling.uni-potsdam.de/~kolb/ir-folien-4-1.pdf">Seminarfolie</a>.
          </ul><br/>
      <li> <b>Wortlisten</b> (zur freien Verwendung, Public Domain)
          <ul>
	  <li> 20561 <a href="Vornamen.txt">Vornamen</a> (männliche und weibliche), 
	  automatisch aus dem Münchner Telefonbuch extrahiert. Von <i>Aarne</i> bis <i>Zygmunt</i>.
	  <li> Ortsnamen:
	      <ul>
	      <li> 2356 <a href="AT-Ortsnamen.txt">österreichische Ortsnamen</a>,
	      <li> 5337 <a href="CZ-Ortsnamen.txt">tschechische Ortsnamen</a>,
	      <li> 11740 <a href="DE-Ortsnamen.txt">deutsche Ortsnamen</a>,
	      <li> 228 <a href="EE-Ortsnamen.txt">estnische Ortsnamen</a>,
	      <li> 8093 <a href="ES-Ortsnamen.txt">spanische Ortsnamen</a>,
	      <li> 34123 <a href="FR-Ortsnamen.txt">französische Ortsnamen</a>,
	      <li> 3145 <a href="HU-Ortsnamen.txt">ungarische Ortsnamen</a>,
	      <li> 3457 <a href="IE-Ortsnamen.txt"> irische Ortsnamen</a>,	      
	      <li> 2688 <a href="PL-Ortsnamen.txt"> polnische Ortsnamen</a>,	      
	      <li> 293 <a href="SE-Ortsnamen.txt"> schwedische Ortsnamen</a>,	      
	      <li> 193 <a href="SI-Ortsnamen.txt"> slowenische Ortsnamen</a>,	      
	      <li> 10313 <a href="UK-Ortsnamen.txt"> britische Ortsnamen</a>.	      
	      </ul>
	  <li> Straßennamen
	     <ul>
	     <li> 7929 <a href="Strassen-Berlin.txt">Berliner Straßennamen</a> (Stand Juni 
	     1995, ohne Anspruch auf Vollständigkeit). Umfasst u.a. 
	     4354 Straßen, 1691 Wege, 213 Plätze, 210 Alleen, 197 Steige, 114
	     Pfade, 97 Zeilen, 93 Dämme, 90 Ringe, 55 Ufer, 35 Chausseen, 28
	     Promenaden, 20 Gassen, 5 Bögen und 5 Korsos.
	     <li> 6920 <a href="Strassen-Muenchen.txt">Münchner Straßennamen</a> (Stand Juni 
	     1995, ohne Anspruch auf Vollständigkeit). Enthalten sind 4967 Straßen, 1071 Wege, 
	     289 Plätze, 62 Ringe, 57 Alleen, 31 Gassen, 25 Bögen,
	     11 Steige, 4 Promenaden, 2 Dämme, 2 Rondells, 2 Ufer und ein Pfad.
	     </ul>
	  <li> Wortfrequenzlisten: die <a href="de-top100-freq.txt">100</a>,  
	  <a href="de-top1000-freq.txt">1.000</a>, <a href="de-top10K-freq.txt">10.000</a> und 
	  <a href="de-top100K-freq.txt">100.000</a> häufigsten 
	  Wortformen mit ihren Frequenzen aus einem <b>706-Mio.-Token-Korpus</b> des Deutschen (verwendbar
	  z.B. als Stoppwortlisten; Zeichenkodierung UTF-8).<br/>
	  Das Korpus umfasst:
	  <center>
	  <table border="0">
	    <tr><td align="left">Enzyklop&auml;die (Wikipedia)</td><td align="right">273 Mio. Token</td></tr>
	    <tr><td align="left">Zeitungen</td><td align="right">260 Mio. Token</td></tr>
	    <tr><td align="left">Parlamentsdebatten</td><td align="right">64 Mio. Token</td></tr>
	    <tr><td align="left">Zeitschriften</td><td align="right">30 Mio. Token</td></tr>
	    <tr><td align="left">Literatur</td><td align="right">30 Mio. Token</td></tr>
	    <tr><td align="left">Fachtext</td><td align="right">28 Mio. Token</td></tr>
	    <tr><td align="left">Untertitel (Filme u. Fernsehserien)</td><td align="right">14 Mio. Token</td></tr>
	    <tr><td align="left">Gesetze u. jurist. Texte</td><td align="right">6 Mio. Token</td></tr>
	    <tr><td align="left">Webseiten</td><td align="right">0,5 Mio. Token</td></tr>
	    <tr><td align="left">Gebrauchstexte</td><td align="right">0,3 Mio. Token</td></tr>
	    </table>
	  </center>
	  </ul>
      </ul>
      </td>
      <td width=20%>
      </td>
   </tr>
   </table>
   
   </td>
  </tr>
</table>

<br>
<center>
<font size=-1 color="#fe6602">&copy; 1999-2012 Peter Kolb</font>
<font size=-1>&nbsp; |</font>
&nbsp;<font size=-1 color="#fe6602">1.1.2012</font>
</center>
<script src="http://www.google-analytics.com/urchin.js" type="text/javascript">
</script>
<script type="text/javascript">
_uacct = "UA-924159-1";
urchinTracker();
</script>
</body>
</html>